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基于 密度 峰值 优化 的 谱 聚 类 算法 


EIE, fh fh. ÆRE, da B. 5j 敏 
(合肥 工业 大 学 计算 机 与 信息 学 院 , 合肥 230009) 


Ho 要 : 针对 经 典 谱 聚 类 算法 无 法 自 适应 确定 聚 类 数目 、 以 及 在 处 理 大 数据 量 的 聚 类 问题 时 效率 不 高 的 问题 ， 提 出 了 
一 种 基于 密度 峰值 优化 的 谱 聚 类 算法 。 该 方法 首先 计算 数据 对 象 的 局 部 密度 ， 以 及 每 个 数据 对 象 与 较 其 他 数据 对 象 的 
最 小 距离 ， 并 依据 一 定 的 规则 自 适 应 产生 初始 聚 类 中 心 ， 确 定 聚 类 数目 ; 其 次 ， 使 用 Nystr6m 抽样 来 降低 特征 分 解 的 
计算 复杂 度 以 达到 提高 谱 聚 类 算法 的 效率 。 实 验 结 果 表 明 ， 该 方法 能 够 准确 地 得 到 聚 类 数目 ， 并 且 有 效 提高 了 聚 类 的 
准确 率 和 效率 。 
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Spectral clustering based on density peak value optimization 


Xue Lixia, Sun Wei, Wang Ronggui, Yang Juant, Hu Min 
(School of Computer & Information, Hefei University of Technology, Hefei 230009, China) 


Abstract: To deal with the problem that classical spectral clustering algorithms are unable to determine the number of clusters 
automatically, and low efficiency in processing large amount of data with. This paper proposes a spectral clustering algorithm 
based on the optimization of density peak value. The method firstly calculates the local density of data object and the minimum 
distance between each data object and other data objects. Adaptive clustering algorithm is generated to determine the number of 
clusters and to optimize the number of clusters according to certain rules. Secondly, adopting Nystróm sampling can reduce the 
time complexity of characteristic decomposition and improve the efficiency ofthe algorithm. The experimental results show that 
this method can accurately obtain the number of clusters and effectively improve the accuracy and efficiency of clustering 
effectively. 
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台数 据点 映射 到 一 个 低 维 的 特征 空间 ， 在 该 特征 空间 中 ， 数 据 
的 分 布 结构 更 加 明显 ， 可 以 使 用 经 典 的 聚 类 算法 如 K-means H 

聚 类 ， 顾 名 思 义 ， 就 是 将 数据 分 类 到 不 同 的 类 或 者 徐 ， 使 行 聚 类 。 由 于 使 用 K-means 对 特征 空间 聚 类 ， 谱 聚 类 算法 需要 
得 同一 个 复 中 的 数据 对 象 有 具有 较 高 的 相似 性 ， 而 属于 不 同 的 复 ”事先 指定 聚 类 中 心 数目 ， 并 且 在 聚 类 过 程 中 通常 随机 选取 初始 
的 数据 对 象 之 间 存 在 较 大 的 相 异 性 。 目 前 ， 许 多 聚 类 算法 已 经 。， 聚 类 中 心 ， 初 始 聚 类 中 心 以 及 聚 类 中 心 数 目的 选取 会 影响 谱 聚 
被 研究 人 员 提 出 , 比如 K-means 算法 、EM 算法 、FCM 算法 等 。 类 算法 的 聚 类 结果 。 另 外 ， 谱 聚 类 算法 在 对 拉 普 拉 斯 矩阵 进行 
这 些 传统 的 聚 类 算法 对 凸 形 样本 空间 聚 类 效果 较 好 ， 但 对 于 非 ” ”特征 分 解 过 程 中 ， 计 算 复杂 度 较 高 ， 不 适用 处 理 大 规模 数据 。 
凸 形 结构 的 数据 集 ， 聚 类 效果 则 不 是 很 好 。 近 年 来 ， 谱 聚 类 算 文献 [外 提出 一 种 非 线性 降 维 算 法 ， 该 算法 能 够 自动 确定 聚 
法 03 逐 渐 发 展 成 较为 重要 的 聚 类 算法 之 一 该 算法 是 一 种 基于 类 的 数目 ， 但 计算 复杂 度 较 高 ， 且 得 到 的 结果 差强人意 。 文 献 


0 引言 


Y 
谱 图 理论 的 新 型 聚 类 分 析 方法 。 在 复杂 的 样本 空间 的 聚 类 中 ， [5] 提 出 一 种 基于 本 征 间 隙 确定 聚 类 数目 的 谱 聚 类 方法 ， 该 方法 
谱 聚 类 算法 通常 会 表现 出 更 好 的 聚 类 性 能 。 利用 本 征 间 隙 刻画 向 量 特征 值 之 间 差 ， 通 过 第 一 个 极 大 本 征 间 


谱 聚 类 算法 通过 计算 相似 度 矩 阵 〈 或 亲 和 甜 阵 ) 以 及 拉 普 。 ” 隐 出 现 的 位 置 来 自动 确定 类 个 数 ， 但 该 算法 对 于 不 均匀 的 数据 


拉 斯 矩阵 并 对 拉 普 拉 斯 矩阵 进行 特征 分 解 ， 利 用 特征 向 量 将 原 ” 分 布 和 高 维 数据 ,容易 出 现 类 估计 错误 和 分 类 准确 率 低 的 问题 。 
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文献 [6] 提 出 一 种 基于 人 工 免 疫 确定 聚 类 数目 的 谱 聚 类 算法 , 该 
算法 通过 模拟 抗体 的 克隆 选择 机 制 和 免疫 系统 的 应 答 系 统 ， 使 
得 聚 类 数目 可 以 自 适 应 调整 ， 但 算法 中 的 阔 值 参数 需要 多 次 实 
验 确 定 ， 阔 值 不 同 导 致 实验 结果 有 较 大 差异 。 文 献 [7] 提 出 一 种 
基于 自然 邻 的 自 适应 谱 聚 类 算法 。 该 算法 利用 自然 邻 产 生 的 局 
部 密度 信息 和 近邻 关系 对 高 斯 函数 进行 修正 ， 并 自 适 应 获取 相 
应 的 聚 类 数目 ， 解 决 了 人 工 指定 聚 类 数目 的 缺陷 ， 该 算法 聚 类 
效果 较 好 ， 但 计算 复杂 度 较 高 ， 不 适用 与 大 规模 数据 。 

本 文 针 对 谱 聚 类 算法 存在 的 潜在 缺陷 ， 提 出 利用 密度 峰值 
聚 类 算法 9 改进 的 谱 聚 类 算法 一 一 DP-SC (density peak 
optimized spectral clustering). DP-SC 算法 通过 找 出 数据 集中 局 
部 密度 较 大 并 且 与 高 密度 点 之 间 的 距离 较 大 的 数据 点 作为 聚 类 
的 初始 聚 类 中 心 ， 由 此 得 到 聚 类 数目 ， 这 样 解决 了 谱 聚 类 算法 
需要 人 工 指定 聚 类 数目 以 及 随机 初始 化 聚 类 中 心 问题 ， 另 外 ， 
在 对 拉 普 拉 斯 矩阵 进行 特征 分 解 过 程 中 ， 引 入 Nyström 38/777 
法 中 I， 来 降低 谱 聚 类 算法 的 计算 复杂 度 。 
1 ” 谱 聚 类 算法 

谱 聚 类 算法 是 一 种 建立 者 图 论 中 图 谱 理论 基础 上 的 新 型 聚 
类 算法 ， 其 本 质 是 利用 谱 松弛 方法 将 聚 类 问题 转换 为 图 的 最 优 
划分 问题 。 假定 待 聚 关 数据 集 X = [xen J eR 中 的 每 一 个 
样本 点 看 做 无 向 图 中 的 顶点 ， 记 为 V. 根据 样本 点 间 的 相似 度 
将 顶点 之 间 的 边 五 赋 权 值得 到 相似 度 和 矩阵 丈 ， 由 此 构造 了 一 个 
基于 样本 间 相 似 度 的 无 向 加 权 图 G=(V,E,W) 。 谱 聚 类 算法 可 
以 归纳 为 以 下 四 个 基本 步骤 : 

a) 根 据 待 聚 类 数据 集 XX， 生成 图 的 相似 度 矩 阵 不 ， 其 中 每 
个 元 素 败 可 以 用 高 斯 核 函数 来 表示 ， 即 


op- o) 


L 


Rep d(x -x ) 表 示 数 据点 和 x 之 间 的 距离 ，o 为 尺度 参数 。 


尺度 参数 o 起 着 极为 重要 的 作用 。 不 同 的 尺度 参数 的 选取 可 能 
会 导致 不 同 的 聚 类 结果 。 本 文 算法 采用 文献 [11] 提 出 的 高 斯 核 
函数 法 。 

b) 计 算 Laplacian 矩阵 元 = DWD", AP D EHER, 
每 一 个 元 素 du 满足 


d; -2" (2) 
J 
ey L 进行 特征 分 解 ， 得 到 前 磊 个 特征 向 量 ， 并 构建 特征 
向 量 空间 ; 


qd) 利 用 经 典 聚 类 方法 如 K-means 对 特征 向 量 空间 中 的 特征 
向 量 进 行 聚 类 。 
在 上 述 步骤 中 ， 谱 聚 类 算法 通常 必须 给 出 指定 的 聚 类 中 心 
数目 k， 这 一 点 往往 很 难 精 确 给 出 ， 因 为 待 分 类 数据 集中 的 数 
据 往 往 是 无 序 的 ， 聚 类 中 心 数目 很 难 确定 。 当 比较 大 时 ， 选 
取 的 大 个 特征 向 量 不 一 定 都 包含 聚 类 信息 ， 从 而 导致 聚 类 结果 
出 现 偏差 。 


2 ”密度 峰值 聚 类 算法 


CFSFDP 算法 外 是 Rodriguez 和 Laio F 2014 年 在 Science 
杂志 提出 的 一 种 基于 密度 的 新 型 聚 类 算法 。 密 度 峰 值 聚 类 算法 
的 核心 思想 在 于 : 聚 类 中 心 被 具有 和 较 低 局 部 密度 的 邻居 点 包围 ， 
且 与 具有 更 高 密度 的 任何 点 之 间 有 相对 较 大 的 距离 。 在 文献 


[8] 中 ， 对 于 待 聚 类 数据 集 X = [x [xeR i 212, N} 中 的 每 一 


个 数据 点 挨 ， 密 度 峰 值 聚 类 算法 都 需要 计算 两 个 关键 的 参数 ， 
即 局 部 密度 p; 和 与 高 局 部 密度 点 之 间 的 距离 2 。 
a) 局 部 密度 o 的 定义 如 下 : 
PP=2ZX( 必 一 4) G) 


j 


x«0 
xz0 


1, 
Jt zo)- [o 


参数 4. 为 截断 距离 ，4. 取 值 通常 都 需要 人 工 指 定 , 本 文 算 
法 采用 文献 [12] 的 做 法 自 适 应 的 获取 d 。 公 式 3) 目的 是 为 了 找 
到 待 聚 类 数据 集 X 中 与 数据 点 碟 之 间距 离 小 于 de 的 数据 点 个 

b) 与 高 密度 点 之 间 的 距离 Ô; 定义 如 下 : 


Sara 


Ô, = min d; (4) 


PPP 7 


其 中 ， 对 于 密度 最 大 的 数据 点 ， 可 以 得 到 2 mad, 


根据 式 G) (4)， 对 于 待 聚 类 数据 集 工 中 的 每 一 个 数据 点 
罗 ， 可 计算 二 元 对 (pi,6;) ， 并 构造 以 P 为 横 坐 标 、5 为 纵 坐 标 
的 决策 图 (decision graph)。 如 图 1 所 示 ， 共 包括 28 个 二 维 数 
据点 。 易 知 , 第 1 号 和 第 10 号 数据 点 都 具有 较 大 的 和 6， 因 
而 可 选择 这 两 个 数据 点 作为 聚 类 中 心 。 另 外 ， 对 于 编号 为 26， 
27, 28 的 三 个 数据 点 在 数据 集 S 中 为 异常 点 ， 他 们 都 具有 共同 


的 特点 : 9 值 较 大 ,但 P 值 较 小 。 


e5 


(a) 数 据 散 点 分 布 图 
2 © 
os] @ 
PIS 


"18 
a] BDA Q a2» 
tr T T T T T T 

0 1 2 


T 1 
3 4 5 6 7 8 


(b) 决 策 图 
图 1 数据 散 点 分 布 图 和 决策 图 
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3 ”基于 密度 峰值 优化 的 谱 聚 


针对 
定 聚 类 中 


类 算法 


谱 聚 类 算法 中 存在 随机 选择 初始 聚 类 中 心 以 及 事先 指 
心 数 目的 问题 ， 本 文 结合 密度 峰值 聚 类 算法 提出 了 一 


种 改进 的 谱 聚 类 算法 一 一 DP-SC (density peaks optimized 


spectral cl 
HRK 中 心 
附近 的 数 
应 获得 初 
3.1 


通常 
尽量 让 聚 


取 到 异常 


为 了 
采取 文献 
CFSFDP 


HH, EG 代表 期 望 的 聚 类 中 心 ; 


到 的 所 


聚 类 中 心 之 
将 小 于 2c(6) 。 


WD 


其 中 : LC 是 去 除 异常 
Pi pus 


初始 聚 类 中 心 


离 5 ， 并 进一步 优化 可 有 效 确 定 聚 类 中 心 以 


聚 类 算法 。DP-SC 算法 的 主要 思想 为 : 初始 
数目 不 再 人 工 选取 ， 而 是 基于 密度 峰值 对 聚 类 中 心 的 
据 密 集 程度 及 与 其 他 聚 类 中 心 的 距离 进行 衡量 ， 自 适 
聚 类 数目 ， 使 得 算法 的 鲁 棒 性 更 强 。 


ustering ) 


始 聚 类 中 心 :与 


对 于 聚 类 中 心 的 选择 ， 应 当 遵循 如 下 原则 ， 
类 中 心 反映 整体 数据 集 的 密集 程度 ， 避 
点 。DP-SC 算法 利用 


即 : 应 该 
聚 类 中 心 选 
CFSFDP 算法 提出 的 局 部 密度 P 
聚 类 中 心 数 


能 够 更 好 地 选择 初始 聚 类 中 心 并 确定 聚 类 数目 ， 本 文 
[9] 中 提出 的 Fuzzy-CFSFDP 算法 的 优化 方法 。Fuzzy- 
算法 对 CFSFDP 算法 的 优化 是 基于 如 下 公式 : 

EC, =(8,)220(6,) (5) 
c(à) 是 根据 式 (4) 计算 得 
距离 的 标准 差 。 根 据 CFSFDP 算法 ， 聚 类 中 心 与 其 他 
间 有 着 较 大 的 距离 ， 因 此 数据 集中 的 其 他 点 的 距离 
但 对 于 于 其 具有 较 大 的 5 值 而 局 部 
小 ， 仅 通过 上 式 很 难 将 异常 点 从 期 望 的 聚 类 中 心中 分 


Ei 
异常 点 ，1 


各 异常 点 准确 地 分 离 ，Fuzzy-CFSFDP 算法 使 用 


LC, = EC; 2 (p) (6) 
点 后 的 局 部 聚 类 中 心 ; 


ALOD) 是 局 部 密度 
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给 出 了 Nyström 逼近 方法 的 矩阵 表示 : 


gl 2 
15 i (7) 


其 中 : Aem" 为 抽样 点 间 的 相似 度 和 矩阵 ， 且 A=UAU”; 
BeRW™m 为 抽样 点 和 剩余 点 之 间 的 相似 度 和 矩阵 ; 
Ce RU oc 为 剩余 点 间 的 相似 度 矩 阵 。 

4 U RI W 的 近似 特征 向 量 ,通过 Nystr5m 扩展 可 得 到 : 


ar 
Ni B'UN! (8) 


令 W 表示 近似 的 W, WA 


相应 地 ， 


u-— U 
W -UAU'- [ras AU" A"U'?B| 


[UAU' B | B | 

| B BA'B| |B" BA!B (9) 

Nyström 3& yr Zr ik Hd g' A^ B 来 间接 计算 矩阵 C。 由 于 
n«N , KAH BAB EIEE C,， 大 大 降低 了 问题 求解 的 


3.8 ”算法 流程 

DP-SC 具体 算法 如 下 所 示 : 

输入 : 待 聚 类 数据 集 立 ={%,%…,Xy} ， 采 样 的 数目 m 
(m<N) 


输出 ， 聚 类 产生 的 个 类 簇 
DHH A) 计算 相似 度 和 矩阵 大， 并且 根据 式 (3) 计算 数 
据点 头 的 局 部 密度 p; ,以 及 根据 式 (4 ) 计 算数 据点 把 的 距离 2 ; 
b) 根 据 式 (5) (6) 得 到 局 部 聚 类 中 心 后 ， 并 对 其 进行 合并 ， 
从 而 获取 初始 的 聚 类 中 心 以 及 聚 类 数目 es 
9 从 数据 集 蕊 中 随机 选取 严 个 抽样 点 ， 并 依据 步骤 1 得 到 
的 相似 度 矩 阵 丈 ， 计 算 抽 样 点 间 的 相似 度 矩 阵 4， 抽 样 点 和 剩 
余 点 之 间 的 相似 度 矩 阵 B; 
d) 在 矩阵 4 和 如 的 基础 上 ， 利 用 式 (2) 计算 度 矩 阵 D, 


pa 


过 结合 式 (5) (6)， 本 文 得 到 的 局 部 聚 类 中 心 具 有 如 下 XATB IAA ARRI RA RA R E CR); 

Ts 比邻 居 点 具有 更 高 的 局 部 密度 D 以 及 更 大 的 5 值 。 之 后 6) 利 用 归 一 化 后 的 4 和 8B, 计 算 和 矩阵 Q=A+A "BB A， 
需要 对 局 部 聚 类 中 心 进行 合并 。 如 果 各 个 局 部 聚 类 中 心 之 间 最 XIBEE O 对 角 化 ， 得 到 总 体 相 似 度 矩 阵 的 正 交 特 征 向 量 ; 
小 距离 如 果 小 于 截断 距离 4. ， 那 么 将 其 合并 成 一 个 聚 类 中 心 。 了 选取 前 上 个 特征 值 对 应 的 特征 向 量 , 构建 特征 向 量 空间 ; 
最 终局 部 聚 类 中 心 合并 完成 后 可 得 到 全 局 聚 类 中 心 更 进一步 ， 多 对 特征 向 量 空 间 的 每 一 行进 行规 范 化 ， 将 规范 化 后 的 每 

局 聚 类 中 心 数 目 即 为 算法 所 需 的 聚 类 数目 。 行 看 做 待 聚 类 的 一 个 样本 点 ， 利 用 K-means 聚 类 算法 对 该 特 
3.2 算法 性 能 优化 征 向 量 空间 进行 聚 类 

谱 聚 类 算法 通常 只 适用 于 规模 较 小 的 数据 集 ， 因 为 在 其 聚 

， MORE MAN 、 4 实验 分 析 
类 过 程 中 ， 存 储 相似 度 和 矩阵 需要 的 空间 复杂 度 为 O(n”) ; 对 拉 
普 拉 斯 矩阵 进行 特征 分 解 时 ， 需 要 的 时 间 复 杂 度 一 般 为 O(n) 。 为 了 验证 本 文 提出 的 DP-SC 算法 的 有 效 性 ,分 别 与 NJW 算 
为 了 降低 谱 聚 类 算法 的 计算 复杂 度 ， 本 文采 用 Nyström 逼近 方 ” 法 中、 基于 Nystrom 抽样 的 谱 聚 类 算法 09 (简称 NS-SC 算法 ) 
法 09 优 化 谱 聚 类 算法 。Nystr6m 方法 是 由 Delves 和 Mohamed 以 及 文献 [15] 中 提出 的 直接 改进 距离 度量 来 改变 相似 度 矩 阵 的 
于 1985 年 提出 的 一 种 用 来 近似 逼近 数值 积分 中 的 积分 算 子 的 “方法 (简称 SCDL 算法 ); 其 中 NJW、NS-SC 和 SCDL 算法 都 需 


数字 逼近 技术 。 该 方法 实质 是 用 小 样本 来 近似 逼近 
将 待 聚 类 数据 集 蕊 划分 为 两 部 分 


(m«N) 


整个 数据 集 。 
分， 一 部 分 为 随机 抽样 得 到 的 m 
本 点 ， 另 一 部 分 为 剩余 的 N-m 个 数据 点 。 式 7) 


个 样 


要 人 工 指定 正确 的 聚 类 数目 , 而 本 文 提 出 的 DP-SC 算法 为 自动 
生成 聚 类 数目 。 随 机 抽样 个 数 为 待 聚 类 数据 集 样 本 数 的 10% 。 
实验 数据 集 来 源 于 文献 [8] 中 的 Aggregation 数据 集 、D31 数据 
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Na 


EI RI5 数据 集 以 及 UCI 机 器 学 习 库 中 的 sonar. dermatology, 
Wine, Glass, abalone 和 Iris 数据 集 , 他 们 的 具体 信息 如 表 1 所 
示 。 本 文 的 实验 平台 为 : Matlab 7.12， 操 作 系 统 为 Windows 7 
64 bit, CPU 为 双核 2.60 GHz, RAM 为 4GB。 


表 1 实验 数据 集 描 述 


数据 集 实例 数 属性 数 类 别 数 
Aggregation 788 2 6 
sonar 208 60 2 
D31 3100 2 31 
dermatology 366 33 6 
R15 1500 2 15 
Wine 178 13 3 
Glass 214 9 6 
abalone 4177 8 3 
Iris 150 4 3 
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Aggregation sonar D31 derma R15 Wine Glass abalone Iris 
Data Set 


图 3 本 文 方法 与 其 他 算法 在 不 同 数据 集 上 运行 时 间 对 比 


结束 语 


本 文 基于 一 种 新 型 密度 聚 类 算法 -CFSFDF 算法 与 当前 应 


实验 中 ， 采 用 常用 的 准确 率 对 算法 的 聚 类 结果 进行 评价 09。 
住 确 率 Caccuracy) 为 


= 


Acc 22-906) (10) 


其 中 : N 为 待 聚 类 数据 集 的 数据 数目 ，9(X,y) 为 一 个 函数 ， 当 
Xx 三 》 时 ， 函 数值 为 1， 否 则 函数 值 为 0，;y; 和 ;分 别 表示 真 实 
的 类 别 标签 和 由 算法 得 到 的 类 别 标签 .显然 , 当 Acc 值 越 大 时 ， 
聚 类 的 效果 就 越 好 。 
图 2 和 3 可 知 , 本 文 提 出 的 DP-SC 算法 在 上 述 9 种 数据 
着 中 ， 准 确 率 更 高 。 根 据 上 面 实验 结果 可 以 总 结 出 本文 提 
出 的 DP-SC 算法 利用 密度 峰值 算法 优化 初始 聚 类 中 心 并 自 适 
应 确定 聚 类 数目 tk， 避免 了 人 工 指定 聚 类 数目 ， 使 得 算法 在 利 
] k-means 对 特征 向 量 进行 聚 类 时 ， 和 鲁 棒 性 更 强 ， 由 于 能 够 
得 到 准确 的 聚 类 数目 ， 使 得 选取 的 个 特征 向 量 能 更 好 地 包含 
聚 类 信息 ，@ 数 据 集 的 聚 类 数目 较 大 时 ，DP-SC 算法 能 够 更 快 
的 收敛 到 全 局 最 优 解 ,但 相 比 于 NS-SC 算法 ， 本 文 算法 的 计算 
复杂 度 还 是 会 高 一 些 , 主要 是 因为 本 文 提出 的 DP-SC 算法 在 自 
适应 确定 聚 类 数目 的 同时 ， 一 定 程度 上 增加 了 算法 的 复杂 度 。 
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用 最 为 广泛 的 谱 聚 类 算法 结合 提出 一 种 密度 峰值 优化 的 谱 聚 类 


算法 (DP-SC)， 能 够 优化 初始 聚 类 中 心 和 自 适 应 确定 聚 类 数目 


k, 


ES 


避免 人 工 指定 聚 类 数目 ; 在 计算 相似 度 矩 阵 时 ， 采 用 基于 共 


近邻 的 自 适 应 高 斯 核 函 数 法 ， 无 须 事先 设 定义 度 参数 o; 利 
用 Nyström 逼近 方法 降低 特征 向 量 求解 的 计算 复杂 度 ， 该 方法 
在 理论 上 能 够 提高 谱 聚 类 的 聚 类 准确 率 和 效率 。 下 一 步 的 工作 


是 对 算法 进一步 的 优化 ， 降 低 算 法 的 计算 复杂 度 并 提高 算法 的 
鲁 棒 性 。 
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